Estimación de ventaja consciente de representación en RLHF
Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.
Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.
Descubre cómo el aprendizaje por refuerzo con el Transformer de Polígonos supera a los solvers heurísticos en anidamiento irregular 2D, alcanzando una utilizaci
Descubre cómo un nuevo enfoque de aprendizaje por refuerzo con atención geométrica supera a los solucionadores heurísticos tradicionales en el anidamiento irregular 2D.
Descubre cómo FlowTracer rastrea el flujo de razonamiento en modelos de lenguaje para asignar crédito preciso a los tokens clave y mejorar el aprendizaje por refuerzo.
FlowTracer asigna crédito a tokens clave en LLMs trazando el flujo de razonamiento inducido por atención, mejorando el aprendizaje por refuerzo en tareas de razonamiento complejo.
Descubre N-GRPO, una nueva estrategia de exploración que mejora el razonamiento matemático de LLMs mediante la mezcla inteligente de embeddings semánticos. Resultados consistentes en benchmarks.
Aprende cómo MODIP optimiza políticas de difusión con modelos predictivos y control de trayectorias. Resultados superiores en D4RL y RoboMimic.
MODIP optimiza políticas de difusión con modelos del mundo, mejorando el aprendizaje robótico. Resultados competitivos en D4RL y RoboMimic.
Flow-DPPO mejora la generación de imágenes y video con RL online y restricción de divergencia, superando al ratio clipping. ¡Descubre cómo!
Descubre cómo PO4AO, basado en aprendizaje por refuerzo, logra la primera demostración en cielo superando al controlador estándar.
Descubre cómo un único modelo de IA controla cualquier configuración de drones multirrotor, gracias a la morfología condicionada y entrenamiento ultrarrápido.
Descubre RoboGPT-R1 combina supervisión y aprendizaje por refuerzo para mejorar la planificación robótica, superando modelos más grandes en tareas complejas
Usa señales privilegiadas sin estado completo para mejorar RL parcial. Descubre cómo seleccionar las más informativas. ¡Optimiza tu IA!
Descubre cómo los LLM mejoran la seguridad y eficiencia en redes de drones mediante precodificación y trayectorias óptimas. Un enfoque innovador de IA.
Descubre TruthRL, un marco de RL que reduce alucinaciones en LLMs al incentivar respuestas correctas y abstención. Mejora la veracidad hasta un 37%.
LGS-Net revoluciona la optimización combinatoria con muestreo guiado por latente y MCMC. Resultados state-of-the-art en problemas de enrutamiento.
El sesgo de distancia en la pérdida BT distorsiona el aprendizaje de modelos de recompensa. NormBT lo corrige con normalización adaptativa, mejorando la precisión hasta un 5%.
Descubre QR-MAX, algoritmo que logra convergencia PAC y eficiencia en problemas de recompensa no markoviana.
Descubre cómo el sobreentrenamiento en SFT reduce la plasticidad del modelo y cómo el método Rejuvenation restaura la capacidad de aprendizaje por refuerzo para mejorar el rendimiento.
¿Cansado de reimplementar interpretabilidad? WorldModelLens unifica el análisis con una interfaz tipada. Descúbrelo.